A Survey on Neural Network Interpretability 2020 AI论文阐述了解释性的重要性,并提出了一种新的解释性分类方法,该分类方法分为三个维度:参与类型(被动解释性与主动解释性)、可解释性的类型和可解释性焦点(从局部解释性到全局解释性)。这种分类法为相关文献中论文的分布提供了一个有意义的3D视图,因为其中的两个维度不是简单的分类,而是允许有序的子类别。最后,论文总结了现有的可解释性评价方法,并提出了新分类方法启发下可能的研究方向。
现有的网络解释方法大多是被动的方法。他们试图理解已经训练过的网络。 A. Passive, Rule as Explanation在大多数情况下,规则提取方法提供了全局解释,因为它们只从目标模型中提取单个规则集或决策树。1) Passive, Rule as Explanation, (Semi-)local:根据论文的分类,这类方法关注于训练过的神经网络和特定的输入(或一小组输入),并产生一个逻辑规则作为解释。Dhurandhar等人[38]通过找出应该最少且充分存在的特征以及应该最少且必然不存在的特征来构建局部规则解释。2) Passive, Rule as Explanation, Global:大多数时候,我们希望对网络有某种形式的整体解释,而不是它在单个点上的局部行为。我们再次将这些方法分为两组。一些规则提取方法利用网络特定的信息,如网络结构或学习的权值。这些方法在以前的文献中称为分解方法[92]decompositional approaches。分解方法通过观察网络中的连接来生成规则。由于许多方法都是在深度学习时代之前开发的,它们大多是为经典的全连接前馈网络设计的。而其他方法则将网络视为一个黑匣子,只使用它为经典规则学习算法生成训练示例。它们被称为教学方法pedagogical approaches。B. Passive, Hidden Semantics as Explanation第二种典型的解释是隐藏的神经元或层的意义。类似于 grandmother cell hypothesis在神经科学中,人们渴望将抽象概念与某些隐藏神经元的激活联系起来。以动物分类为例,一些神经元可能对动物的头部有较高的反应,而另一些神经元可能会寻找动物的身体、脚或其他部位。这种定义上的解释提供了全局的可解释性。现有的隐语义解释方法主要集中在计算机视觉领域。最直接的方法是显示神经元在“寻找”什么,即可视化。C. Passive, Attribution as ExplanationAttribution是指根据输入特性对输出(预测)的影响,对输入特性给予信任或批判。解释将是一个实值向量,它用分数[30]的符号和振幅表示特征的重要性。对于具有有意义的特征的简单模型(例如线性模型),我们可以为每个特征全局分配一个分数。当涉及到更复杂的网络和输入时,例如图像,很难说某个像素总是对输出有类似的贡献。因此,许多方法都是在局部进行归因。D. Passive, Explanation by Example我们回顾的最后一种解释是例子解释。当被要求解释一个新输入时,这些方法会返回支持或反例的其他示例。一个基本的直觉是找到模型认为最相似的例子(就潜在表示而言)[111]。这是局部可解释性,但我们也可以在一个类或更多类中寻找一组具有代表性的样本来提供全局可解释性。